# Tokenizers၊ အဆင်သင့်ဖြစ်ပါပြီ![[tokenizers-check]]

<CourseFloatingBanner
    chapter={6}
    classNames="absolute z-10 right-0 top-0"
/>

ဒီအခန်းကို ပြီးဆုံးအောင် လေ့လာနိုင်ခဲ့တဲ့အတွက် ဂုဏ်ယူပါတယ်။

tokenizers တွေအကြောင်း နက်နက်နဲနဲ လေ့လာပြီးနောက်၊ သင်ဟာ အောက်ပါတို့ကို လုပ်ဆောင်နိုင်သင့်ပါတယ်...

-   tokenizer အဟောင်းတစ်ခုကို template အဖြစ် အသုံးပြုပြီး tokenizer အသစ်တစ်ခုကို train လုပ်နိုင်ခြင်း။
-   tokens တွေရဲ့ positions တွေကို ၎င်းတို့ရဲ့ မူရင်း text span တွေနဲ့ map လုပ်ဖို့ offsets တွေကို ဘယ်လိုအသုံးပြုရမယ်ဆိုတာ နားလည်ခြင်း။
-   BPE, WordPiece, နဲ့ Unigram တို့ကြားက ကွာခြားချက်တွေကို သိရှိခြင်း။
-   🤗 Tokenizers library က ပံ့ပိုးပေးထားတဲ့ blocks တွေကို ရောနှောပြီး သင့်ကိုယ်ပိုင် tokenizer ကို တည်ဆောက်နိုင်ခြင်း။
-   အဲဒီ tokenizer ကို 🤗 Transformers library အတွင်းမှာ အသုံးပြုနိုင်ခြင်း။

## ဝေါဟာရ ရှင်းလင်းချက် (Glossary)

*   **Tokenizer**: စာသား (သို့မဟုတ် အခြားဒေတာ) ကို AI မော်ဒယ်များ စီမံဆောင်ရွက်နိုင်ရန် tokens တွေအဖြစ် ပိုင်းခြားပေးသည့် ကိရိယာ သို့မဟုတ် လုပ်ငန်းစဉ်။
*   **Train a New Tokenizer**: အစကနေ သို့မဟုတ် လက်ရှိ tokenizer တစ်ခုကို အခြေခံ၍ စာသား corpus အသစ်တစ်ခုပေါ်တွင် tokenizer အသစ်တစ်ခုကို လေ့ကျင့်တည်ဆောက်ခြင်း။
*   **Template (Tokenizer)**: tokenizer အသစ်တစ်ခုကို တည်ဆောက်ရာတွင် အခြေခံအဖြစ် အသုံးပြုသော လက်ရှိ tokenizer။
*   **Offsets**: token တစ်ခုစီသည် မူရင်းစာသား၏ မည်သည့်စတင်ခြင်းနှင့် အဆုံးသတ် character index များကြားတွင် ရှိနေသည်ကို ဖော်ပြသော map။
*   **Map Tokens' Positions**: tokens များ၏ အနေအထားများကို မူရင်းစာသားရှိ ၎င်းတို့၏ နေရာများနှင့် တွဲဖက်သတ်မှတ်ခြင်း။
*   **Original Span of Text**: token တစ်ခု (သို့မဟုတ် အုပ်စု) ထွက်ပေါ်လာသော မူရင်းစာသားအပိုင်းအစ။
*   **BPE (Byte-Pair Encoding)**: Subword tokenization algorithm တစ်မျိုး။
*   **WordPiece**: Subword tokenization algorithm တစ်မျိုး။
*   **Unigram**: Subword tokenization algorithm တစ်မျိုး။
*   **🤗 Tokenizers Library**: Rust ဘာသာနဲ့ ရေးသားထားတဲ့ Hugging Face library တစ်ခုဖြစ်ပြီး မြန်ဆန်ထိရောက်တဲ့ tokenization ကို လုပ်ဆောင်ပေးသည်။
*   **Blocks (Tokenizer)**: Tokenizer တစ်ခု၏ ဖွဲ့စည်းပုံကို တည်ဆောက်ရန် အသုံးပြုနိုင်သော normalization, pre-tokenization, post-processing စသည့် အစိတ်အပိုင်းများ။
*   **🤗 Transformers Library**: Hugging Face က ထုတ်လုပ်ထားတဲ့ library တစ်ခုဖြစ်ပြီး Transformer မော်ဒယ်တွေကို အသုံးပြုပြီး Natural Language Processing (NLP), computer vision, audio processing စတဲ့ နယ်ပယ်တွေမှာ အဆင့်မြင့် AI မော်ဒယ်တွေကို တည်ဆောက်ပြီး အသုံးပြုနိုင်စေပါတယ်။